Temporal Difference Learning

Temporal Difference Learning (auch TD-Learning) ist eine Methode des bestärkenden Lernens. Beim bestärkenden Lernen erhält ein Agent nach einer Reihe von Aktionen eine Belohnung und passt seine Strategie an, um die Belohnung zu maximieren. Ein Agent mit einem TD-Learning-Algorithmus macht die Anpassung nicht erst, wenn er die Belohnung erhält, sondern nach jeder Aktion auf Basis einer geschätzten erwarteten Belohnung.